我们考虑如何在从流环境中学习贝叶斯模型时有效地使用先验知识,其中数据无限依次出现。这个问题在数据爆炸时代非常重要,富有培训的模型,本体,维基百科等珍贵外部知识的富裕来源非常重要。我们表明一些现有的方法可以忘记任何知识。然后,我们提出了一种新颖的框架,使能够将不同形式的先验知识纳入基础贝叶斯模型的数据流。我们的框架载有一些现有的时序/动态数据的流行模型。广泛的实验表明,我们的框架优于具有大边距的现有方法。特别是,我们的框架可以帮助贝叶斯模型在极短的文本上概括,而其他方法过度装备。我们的框架的实施是在https://github.com/bachtranxuan/tps.git上获得的。
translated by 谷歌翻译
从数据流学习隐藏的主题已经成为绝对必要的,但构成了挑战性问题,如概念漂移以及短而嘈杂的数据。使用先验知识来丰富主题模型是应对这些挑战的潜在解决方案之一。先前知识,其来自人类知识(例如Wordnet)或预先训练的模型(例如Word2Vec)是非常有价值的,并且有助于帮助主题模型更好地工作。然而,在数据到达不断且无限的流动环境中,现有研究仅限于有效利用这些资源。特别是,忽略了包含有意义的词关系的知识图形。在本文中,为了有效利用知识图,我们提出了一种新颖的图形卷积主题模型(GCTM),它将图形卷积网络(GCN)集成到一个主题模型和学习方法,它同时学习网络和主题模型数据流。在每个小纤维中,我们的方法不仅可以利用外部知识图,还可以平衡外部和旧知识,以便在新数据上表现良好。我们进行广泛的实验来评估我们的方法,以评估我们的知识图(WordNet)和由预先接受训练的Word Embeddings(Word2VEC)构建的图形的图表。实验结果表明,在概率预测措施和主题连贯性方面,我们的方法比最先进的基线达到更好的表现。特别是,在处理短文本以及概念漂移时,我们的方法可以很好地工作。 GCTM的实现可在\ URL {https://github.com/bachtranxuan/gctm.git}。
translated by 谷歌翻译
语义分割是开发医学图像诊断系统的重要任务。但是,构建注释的医疗数据集很昂贵。因此,在这种情况下,半监督方法很重要。在半监督学习中,标签的质量在模型性能中起着至关重要的作用。在这项工作中,我们提出了一种新的伪标签策略,可提高用于培训学生网络的伪标签的质量。我们遵循多阶段的半监督训练方法,该方法在标记的数据集上训练教师模型,然后使用训练有素的老师将伪标签渲染用于学生培训。通过这样做,伪标签将被更新,并且随着培训的进度更加精确。上一个和我们的方法之间的关键区别在于,我们在学生培训过程中更新教师模型。因此,在学生培训过程中,提高了伪标签的质量。我们还提出了一种简单但有效的策略,以使用动量模型来提高伪标签的质量 - 训练过程中原始模型的慢复制版本。通过应用动量模型与学生培训期间的重新渲染伪标签相结合,我们在五个数据集中平均达到了84.1%的骰子分数(即Kvarsir,CVC-ClinicdB,Etis-laribpolypdb,cvc-colondb,cvc-colondb,cvc-colondb和cvc-300)和CVC-300)只有20%的数据集用作标记数据。我们的结果超过了3%的共同实践,甚至在某些数据集中取得了完全监督的结果。我们的源代码和预培训模型可在https://github.com/sun-asterisk-research/online学习SSL上找到
translated by 谷歌翻译
大多数凝视估计研究仅适用于相机完美地捕获眼睛凝视的设置条件。他们没有明确指定如何为一个人的给定位置正确设置相机。在本文中,我们对逻辑相机设置位置进行了凝视估计的研究。我们进一步通过使用具有逼真场景的廉价边缘设备在实际应用中进行了研究。也就是说,我们首先建立一个购物环境,在那里我们想要掌握客户凝视行为。该设置需要最佳摄像机位置,以便从现有的凝视估计研究中维持估计精度。然后,我们应用几秒钟学习凝视估计,以减少推理阶段中的训练采样。在实验中,我们对NVIDIA Jetson TX2进行了实施的研究,并达到了合理的速度,12 FPS与我们的参考工作相比更快,而没有缩小估计精度的劣化。源代码在https://github.com/linh-gist/gazeestimationtx2发布。
translated by 谷歌翻译
我们为神经机翻译(NMT)提供了一个开源工具包。新工具包主要基于拱形变压器(Vaswani等,2017)以及下面详述的许多其他改进,以便创建一个独立的,易于使用,一致和全面的各个领域的机器翻译任务框架。它是为了支持双语和多语言翻译任务的工具,从构建各个语料库的模型开始推断新的预测或将模型打包给提供功能的JIT格式。
translated by 谷歌翻译
Mixtures of regression are a powerful class of models for regression learning with respect to a highly uncertain and heterogeneous response variable of interest. In addition to being a rich predictive model for the response given some covariates, the parameters in this model class provide useful information about the heterogeneity in the data population, which is represented by the conditional distributions for the response given the covariates associated with a number of distinct but latent subpopulations. In this paper, we investigate conditions of strong identifiability, rates of convergence for conditional density and parameter estimation, and the Bayesian posterior contraction behavior arising in finite mixture of regression models, under exact-fitted and over-fitted settings and when the number of components is unknown. This theory is applicable to common choices of link functions and families of conditional distributions employed by practitioners. We provide simulation studies and data illustrations, which shed some light on the parameter learning behavior found in several popular regression mixture models reported in the literature.
translated by 谷歌翻译
By utilizing only depth information, the paper introduces a novel but efficient local planning approach that enhances not only computational efficiency but also planning performances for memoryless local planners. The sampling is first proposed to be based on the depth data which can identify and eliminate a specific type of in-collision trajectories in the sampled motion primitive library. More specifically, all the obscured primitives' endpoints are found through querying the depth values and excluded from the sampled set, which can significantly reduce the computational workload required in collision checking. On the other hand, we furthermore propose a steering mechanism also based on the depth information to effectively prevent an autonomous vehicle from getting stuck when facing a large convex obstacle, providing a higher level of autonomy for a planning system. Our steering technique is theoretically proved to be complete in scenarios of convex obstacles. To evaluate effectiveness of the proposed DEpth based both Sampling and Steering (DESS) methods, we implemented them in the synthetic environments where a quadrotor was simulated flying through a cluttered region with multiple size-different obstacles. The obtained results demonstrate that the proposed approach can considerably decrease computing time in local planners, where more trajectories can be evaluated while the best path with much lower cost can be found. More importantly, the success rates calculated by the fact that the robot successfully navigated to the destinations in different testing scenarios are always higher than 99.6% on average.
translated by 谷歌翻译
我们解决了在均质半透明材料中建模光散射并估算其散射参数的问题。散射相函数是影响散射辐射分布的此类参数之一。它是在实践中建模的最复杂,最具挑战性的参数,通常使用经验相位函数。经验相函数(例如Henyey-Greenstein(HG)相位函数)通常会呈现,并限于特定的散射材料范围。这种限制引起了人们对目标材料通常未知的反向渲染问题的关注。在这种情况下,首选更通用的相位函数。尽管使用诸如Legendre多项式\ cite {Fowler1983}之类的基础中存在这种通用相位函数,但此相函数的逆渲染并不直接。这是因为基础多项式在某个地方可能是负面的,而相位函数不能。这项研究提出了一种新型的通用相位功能,可以避免此问题,并使用此阶段函数进行逆渲染应用。通过以MIE散射理论建模的广泛的材料对所提出的相函数进行了积极评估。通过模拟和现实世界实验评估了带有建议的相函数的散射参数估计。
translated by 谷歌翻译
传感器融合可以显着提高许多计算机视觉任务的性能。但是,传统的融合方法要么不是数据驱动的,也不能利用先验知识,也不能在给定数据集中找到规律性,或者它们仅限于单个应用程序。我们通过呈现一种新型深层分层变异自动编码器来克服这一缺点,称为FusionVae,可以作为许多融合任务的基础。我们的方法能够生成以多个嘈杂,遮挡或仅部分可见的输入图像来调节的各种图像样本。我们得出并优化了融合的条件对数似然的变化下限。为了彻底评估模型的融合功能,我们根据流行的计算机视觉数据集创建了三个新颖的图像融合数据集。在我们的实验中,我们表明FusionVae学习了与融合任务相关的汇总信息的表示。结果表明,我们的方法表现明显优于传统方法。此外,我们介绍了不同设计选择的优势和缺点。
translated by 谷歌翻译
视频时间基础(VTG)的目标是根据自然语言(NL)描述在未修剪视频中定位时间矩。由于现实世界的应用程序提供了永无止境的视频流,因此它提出了对长形视频的时间基础的需求,这导致了两个主要挑战:(1)长视频长度使得很难处理整个视频而不减少样本速率并导致高计算负担; (2)随着候选时间的增加数量,准确的多模式对准更具挑战性。为了应对这些挑战,我们提出了一个有效的以窗户为中心的粗略对齐框架,它可以灵活地处理具有较高推理速度的长格式视频输入,并通过我们的新颖的Choce-Fine Muly-Fine增强了时间基础模态对齐框架。具体来说,我们通过滑动窗口方法将长视频将长视频切成候选窗口。 Cone(1)以窗户为中心,通过对比度学习和通过对NL查询相关的候选窗口进行过滤来学习窗口间的(粗粒)语义差异,并且(2)执行内部(罚款) - 使用强大的对比视力文本预训练模型的强大多模式对齐能力对候选力矩进行排名。长期视频的两个大规模VTG基准测试的广泛实验始终显示出可观的性能增长(MAD的3.13%至6.87%,从10.46%到EGO4D-NLQ上的10.46%至13.46%),并且Cone在两个数据集上都可以达到SOTA结果。分析揭示了组件的有效性和长期视频接地的效率较高,因为我们的系统在EGO4D-NLQ上提高了2倍的推理速度,而在MAD上提高了15倍的速度,同时保持了锥体的SOTA性能。
translated by 谷歌翻译